基於離散倒頻譜之頻譜包絡估計架構及其於語音轉換之應用 (A Discrete-cepstrum Based Spectrum-envelope Estimation Scheme and Its Application to Voice Transformation) [In Chinese]

نویسندگان

  • Hung-Yan Gu
  • Song-Fong Tsai
چکیده

除了 LPC 之外,過去也有幾個以倒頻譜(cepstrum)為基礎的頻譜包絡估計方法被提 出,最簡單的一個是倒頻譜平滑法[1],此法只保留倒頻譜係數的前幾個,而把後面的 係數全部砍除(即令為 0 值),再作離散傅利葉轉換(discrete Fourier transform , DFT),就 可得到平滑的頻譜曲線,如圖 1 裡下方的那一條平滑曲線,很明顯地這樣的一條頻譜曲 線並不是頻譜包絡,因為它走在原始 DFT 頻譜的波峰與波谷之間,而不是沿著波峰行 走。因此,Imai 和 Abe 兩人提出一個以倒頻譜為基礎再作改進的方法[3, 4] ,稱為 true envelope 估計法,然而此法的計算量很大而缺乏效率。另外,Galas 和 Rodet 兩人提出 以離散倒頻譜(discrete cepstrum )來估計頻譜包絡的觀念[5],後來 Cappé 和 Moulines 兩 人則提出穩定化(regularization)的技術[6],以解決使用離散倒頻譜來逼近頻譜包絡時所 遇到的困難。我們覺得基於離散倒頻譜之估計法是一個不錯的方法,因此就著手研究此

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

基於音段式LMR 對映之語音轉換方法的改進 (Improving of Segmental LMR-Mapping Based Voice Conversion Methods) [In Chinese]

把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音,這 種處理稱為語音轉換(voice conversion)[1, 2, 3],語音轉換可應用於銜接語音合成處理, 以獲得多樣性的合成語音音色。去年我們曾嘗試以線性多變量迴歸(linear multivariate regression, LMR)來建構一種頻譜對映(mapping)的機制[4],然後用於作語音轉換,希望 藉以改進傳統上基於高斯混合模型(Gaussian mixture model, GMM)之頻譜對映機制[3] 常遇到的一個問題,就是轉換出的頻譜包絡(spectral envelope)會發生過度平滑(over smoothing)的現象。我們經由實驗發現,音段式(segmental) LMR 頻譜對映機制不僅在平 均轉換誤差上可以比傳統 GMM 頻譜對映機...

متن کامل

雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]

近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...

متن کامل

最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]

本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...

متن کامل

強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]

雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009